Warning: mkdir(): No space left on device in /var/www/tg-me/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/knowledge_accumulator/--): Failed to open stream: No such file or directory in /var/www/tg-me/post.php on line 50
Knowledge Accumulator | Telegram Webview: knowledge_accumulator/284 -
Telegram Group & Telegram Channel
Continuous Thought Machines [2025] - революция в нейросетях?

В sakana.ai есть не только департамент генерации говностатей с помощью LLM, но и люди, пытающиеся делать фундаментальные исследования. Давайте посмотрим на их последний продукт. Начнём с мотивации.

Текущие нейросети применяют к вектору данных последовательность матричных (или около того) операций. В таких вычислительных графах отсутствует какая-либо временная динамика, время влияет только на скорость получения результата.

То же самое нельзя сказать про человеческий мозг. Так как он оптимизирован эволюцией на выполнение задач, то не стесняется эксплуатировать все доступные инструменты, в том числе и время. В пример приводится Spike-timing-dependent plasticity - связь между нейронами может изменяться в зависимости от того, насколько близко по времени они были активированы.

Можно представить, как введение временной динамики значительно увеличивает пространство того, что может быть сделано одним и тем же количеством нейроном - это как перейти из 2D-мира в 3D. Авторы решаются отыскать нейроархитектуру, использующую время в своих вычислениях.

Итак, у нас есть D "нейронов", оперирующих над пространством размерности D - "пре-активациями". На каждом шаге применения модели каждому нейрону подаётся M последних "пре-активаций" и каждый из них выдаёт по скаляру, которые образуют вектор "пост-активаций". Из этого вектора будут считаться "пре-активации" следующего шага.

С данными эта конструкция взаимодействует во время так называемой "синхронизации". Тут творчество авторов начинает выходить из под контроля. Они берут всю историю пост-активаций - матрицу размером DxT, сэмплируют K рандомных пар нейронов и считают скалярные произведения историй их пост-активаций, это называется "synchronization representations". Один такой вектор умножается на матрицу весов для получения выходов, а другой такой вектор умножается на матрицу для получения вектора Query для Attention-слоя, который применяется к входным данным 🤯

Результат этого attention как раз используется вместе с вектором пост-активаций для расчёта следующего вектора пре-активаций.

Из плюсов модели можно отметить следующее - во-первых, в ней зашита возможность "думать" над объектом разное количество времени. Её функция ошибки сделана таким образом, чтобы она могла "подумать" в течение N циклов и потом выдать правильный ответ. Во-вторых, тут действительно есть временное взаимодействие между нейронами.

Но так-то перед нами, конечно, очередной мертворождённый шедевр кустарного нейростроения. С вероятностью 99% никто другой не будет всерьёз смотреть на эту архитектуру, и главная причина этому - авторы слишком много думали про нейросети. Это, вообще говоря, эпидемия среди ML-исследователей.

На мой взгляд, чтобы получить научный прорыв, надо пытаться решать нерешённую задачу. Трансформеры появились как ответ на практический вызов, а не в результате свободного полёта больной фантазии. На подкасте у Фридмана David Silver, сделавший AlphaGo, рассказывает о том, как он годами бился над алгоритмом, играющим в эту игру, и свёрточные нейросети просто попались под руку. AGI, уверен, появится как решение проблемы Out-of-Distribution генерализации.

Да, идея использовать временную динамику в алгоритмах в принципе интересна, но, мне кажется, это скорее вопрос вычислительной эффективности. Если её использование позволяет считать быстрее, чем "временно-плоские" алгоритмы, то за это лайк 👍 Возможно ли на "временно-плоских" видеокартах эффективно запускать "временно-кривые" алгоритмы? Кто знает.

А пока что у нас на руках очень переусложнённый гибрид трансформера и рекуррентной сети, который кучу раз применяют на одном объекте. Да, авторы показали, что картинки это классифицирует лучше, чем LSTM, но также или хуже, чем CNN. Молодцы 🏅

@knowledge_accumulator
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/knowledge_accumulator/284
Create:
Last Update:

Continuous Thought Machines [2025] - революция в нейросетях?

В sakana.ai есть не только департамент генерации говностатей с помощью LLM, но и люди, пытающиеся делать фундаментальные исследования. Давайте посмотрим на их последний продукт. Начнём с мотивации.

Текущие нейросети применяют к вектору данных последовательность матричных (или около того) операций. В таких вычислительных графах отсутствует какая-либо временная динамика, время влияет только на скорость получения результата.

То же самое нельзя сказать про человеческий мозг. Так как он оптимизирован эволюцией на выполнение задач, то не стесняется эксплуатировать все доступные инструменты, в том числе и время. В пример приводится Spike-timing-dependent plasticity - связь между нейронами может изменяться в зависимости от того, насколько близко по времени они были активированы.

Можно представить, как введение временной динамики значительно увеличивает пространство того, что может быть сделано одним и тем же количеством нейроном - это как перейти из 2D-мира в 3D. Авторы решаются отыскать нейроархитектуру, использующую время в своих вычислениях.

Итак, у нас есть D "нейронов", оперирующих над пространством размерности D - "пре-активациями". На каждом шаге применения модели каждому нейрону подаётся M последних "пре-активаций" и каждый из них выдаёт по скаляру, которые образуют вектор "пост-активаций". Из этого вектора будут считаться "пре-активации" следующего шага.

С данными эта конструкция взаимодействует во время так называемой "синхронизации". Тут творчество авторов начинает выходить из под контроля. Они берут всю историю пост-активаций - матрицу размером DxT, сэмплируют K рандомных пар нейронов и считают скалярные произведения историй их пост-активаций, это называется "synchronization representations". Один такой вектор умножается на матрицу весов для получения выходов, а другой такой вектор умножается на матрицу для получения вектора Query для Attention-слоя, который применяется к входным данным 🤯

Результат этого attention как раз используется вместе с вектором пост-активаций для расчёта следующего вектора пре-активаций.

Из плюсов модели можно отметить следующее - во-первых, в ней зашита возможность "думать" над объектом разное количество времени. Её функция ошибки сделана таким образом, чтобы она могла "подумать" в течение N циклов и потом выдать правильный ответ. Во-вторых, тут действительно есть временное взаимодействие между нейронами.

Но так-то перед нами, конечно, очередной мертворождённый шедевр кустарного нейростроения. С вероятностью 99% никто другой не будет всерьёз смотреть на эту архитектуру, и главная причина этому - авторы слишком много думали про нейросети. Это, вообще говоря, эпидемия среди ML-исследователей.

На мой взгляд, чтобы получить научный прорыв, надо пытаться решать нерешённую задачу. Трансформеры появились как ответ на практический вызов, а не в результате свободного полёта больной фантазии. На подкасте у Фридмана David Silver, сделавший AlphaGo, рассказывает о том, как он годами бился над алгоритмом, играющим в эту игру, и свёрточные нейросети просто попались под руку. AGI, уверен, появится как решение проблемы Out-of-Distribution генерализации.

Да, идея использовать временную динамику в алгоритмах в принципе интересна, но, мне кажется, это скорее вопрос вычислительной эффективности. Если её использование позволяет считать быстрее, чем "временно-плоские" алгоритмы, то за это лайк 👍 Возможно ли на "временно-плоских" видеокартах эффективно запускать "временно-кривые" алгоритмы? Кто знает.

А пока что у нас на руках очень переусложнённый гибрид трансформера и рекуррентной сети, который кучу раз применяют на одном объекте. Да, авторы показали, что картинки это классифицирует лучше, чем LSTM, но также или хуже, чем CNN. Молодцы 🏅

@knowledge_accumulator

BY Knowledge Accumulator




Share with your friend now:
tg-me.com/knowledge_accumulator/284

View MORE
Open in Telegram


Knowledge Accumulator Telegram | DID YOU KNOW?

Date: |

What Is Bitcoin?

Bitcoin is a decentralized digital currency that you can buy, sell and exchange directly, without an intermediary like a bank. Bitcoin’s creator, Satoshi Nakamoto, originally described the need for “an electronic payment system based on cryptographic proof instead of trust.” Each and every Bitcoin transaction that’s ever been made exists on a public ledger accessible to everyone, making transactions hard to reverse and difficult to fake. That’s by design: Core to their decentralized nature, Bitcoins aren’t backed by the government or any issuing institution, and there’s nothing to guarantee their value besides the proof baked in the heart of the system. “The reason why it’s worth money is simply because we, as people, decided it has value—same as gold,” says Anton Mozgovoy, co-founder & CEO of digital financial service company Holyheld.

If riding a bucking bronco is your idea of fun, you’re going to love what the stock market has in store. Consider this past week’s ride a preview.The week’s action didn’t look like much, if you didn’t know better. The Dow Jones Industrial Average rose 213.12 points or 0.6%, while the S&P 500 advanced 0.5%, and the Nasdaq Composite ended little changed.

Knowledge Accumulator from it


Telegram Knowledge Accumulator
FROM USA